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Выделение набора информативных признаков 
на основе эволюционного поиска 
с кластеризацией 


Решается задача поиска наиболее информативной комбинации признаков с помощью методов 
эволюционной оптимизации. Предложен метод эволюционного поиска с кластеризацией признаков. 
Проведены эксперименты по выделению информативного набора признаков для синтеза моделей 
классификации автотранспортных средств. 


Введение 


В автоматизированных системах распознавания образов, принятия решений, 
прогнозирования и классификации важное значение имеет описание объекта на основе 
набора (системы) признаков, обладающего максимальной информативностью. Исполь- 
зование неинформативных и избыточных признаков не только оказывается бесполез- 
ным, но и снижает эффективность процесса распознавания [1]. Поэтому при синтезе 
распознающих моделей актуальным является этап поиска наиболее значимой комби- 
нации признаков. 

Задача выделения наиболее значимого признакового набора из исходного 
множества данных заключается в поиске такой комбинации информативных признаков, 
при которой достигается минимум заданного критерия оценивания набора признаков. 

В настоящее время известны различные методы отбора признаков [2], [3]: метод 
полного перебора, эвристические методы последовательного добавления и удаления 
признаков, ранжирование признаков. Однако такие методы связаны с необходи- 
мостью комбинаторного перебора, что делает их мало применимыми на практике, 
либо используют критерии оценивания индивидуальной информативности призна- 
ков, не учитывая при этом совместное влияние всего набора признаков на выходной 
параметр. 

Для выделения наиболее значимой комбинации признаков могут быть исполь- 
зованы методы эволюционного поиска [4-6], которые на каждой итерации работают нес 
единственным решением, а с некоторым множеством решений, что позволяет во многих 
случаях анализировать пространство поиска быстрее по сравнению с традиционными 
методами, не выдвигая при этом дополнительных требований к виду целевой функции, 
что, в свою очередь, приводит к более быстрому поиску оптимума. 

Однако при отборе признаков с помощью классических методов эволюционной 
оптимизации [4-6] не учитывается расположение признаков в пространстве экземп- 
ляров, в результате чего новые решения, генерируемые в процессе поиска, могут вклю- 
чать в себя малоинформативные признаки, что приводит к формированию и оцениванию 
изначально неинформативных наборов. 
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Целью настоящей работы является создание метода эволюционного поиска с 
кластеризацией признаков, который учитывает расположение признаков в пространстве 
экземпляров при формировании новых решений и позволяет выделить комбинацию 
информативных признаков, принадлежащих разным факторным группам. 


Отбор информативных признаков на основе методов 
эволюционной оптимизации 


Использование эволюционного поиска требует определения способа представления 
информации в хромосоме и фитнесс-функции, с помощью которой производится 
оценивание эффективности хромосом для решаемой задачи. 

Для отбора информативных признаков из исходного массива, содержащего Г 
признаков, с помощью методов эволюционного поиска решение (хромосома) пред- 
ставляется битовой строкой размера Г. Если бит хромосомы принимает единичное 
значение, тогда соответствующий ему признак считается информативным и учиты- 
вается при оценивании набора признаков, соответствующего хромосоме. В противном 
случае, когда бит принимает нулевое значение, признак считается неинформативным 
и не используется при оценке комбинации признаков. 

Преимущество такого представления заключается в том, что классические эволю- 
ционные операторы скрещивания и мутации могут быть применены для отбора при- 
знаков без каких-либо изменений. 

При поиске наиболее значимой комбинации признаков на основе методов 
эволюционной оптимизации в качестве фитнесс-функции хромосом используются 
критерии, позволяющие оценить информативность набора признаков, соответствующего 
оцениваемой хромосоме. 

В качестве таких критериев используются: показатели эффективности клас- 
сификации или прогнозирования по моделям, синтезированным на основе оценивае- 
мых комбинаций признаков либо фильтрующие критерии. 

Критерии, относящиеся к первой группе, оценивают набор признаков с помощью 
ошибки прогнозирования или классификации по модели, построенной на основе при- 
знаков из анализируемого набора. В качестве синтезируемых моделей могуг исполь- 
зоваться регрессионные, нечеткие, нейросетевые, нейро-нечеткие и другие. 

В случае отбора признаков при решении задачи прогнозирования в качестве 
критериев оценивания информативности могут быть использованы: среднеквадрати- 
ческая ошибка, сумма квадратов отклонений, средняя абсолютная ошибка, сумма 
значений абсолютных отклонений, максимальное абсолютное отклонение, средняя 
относительная ошибка, сумма относительных отклонений, максимальное относительное 
отклонение [7], [8]. При отборе признаков для классификации используются: вероят- 
ность принятия ошибочных решений и критерий Фишера [1], [3], [7], [8]. 

Наиболее часто для оценивания информативности набора признаков Х используется 


т 
сумма квадратов отклонений: Е(Х )= ий [1 — У у ‚ где Е(Х) — сумма квадратов 
р=1 
отклонений реальных значений выходного параметра от значений, вычисленных с по- 
мощью модели, синтезированной на основе комбинации признаков Х; Ух-— значение 
выходного параметра р-го экземпляра, рассчитанное по синтезированной модели; у’— 
реальное значение выходного параметра р-го экземпляра; т — количество экземпляров в 
исходной выборке данных. 
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Использование ошибок синтезируемых моделей для оценивания информативности 
набора признаков является достаточно ресурсоемкой процедурой, поскольку синтез 
моделей на основе оцениваемой комбинации признаков занимает значительно большее 
время по сравнению с оцениванием признаков путем применения фильтрующих 
критериев оценивания совместного влияния признаков. 

Как правило, использование таких критериев приводит к лучшим результатам 
по сравнению с фильтрующими критериями, поскольку они ориентированны на поиск 
информативной комбинации признаков для конкретной модели, которая в дальнейшем 
будет применяться на практике. 

Однако это приводит к уменьшению гибкости результатов в виде набора инфор- 
мативных признаков. И в случае принятия решения об изменении типа модели, исполь- 
зуемой для описания исследуемого объекта или процесса, необходимо будет запускать 
метод для повторного поиска комбинации информативных признаков, соответствую- 
щей новой модели. 

На практике часто возникают ситуации, когда исходный набор данных содер- 
жит чрезвычайно большие объёмы информации. Это приводит к значительным вычис- 
лительным и временным затратам на построение модели, описывающей исследуемый 
объект или процесс. В результате построение моделей и использование их ошибок 
для оценивания хромосом является неприемлемым. 

В таких случаях используют фильтрующие критерии, которые предполагают 
исключение неинформативных признаков из исходного набора до построения модели, 
описывающей исследуемый объект. 

Одним из преимуществ таких методов оценивания информативности является то, 
что они не нуждаются в повторном запуске в случае необходимости синтеза новой 
модели по уже отобранным признакам. Фильтры являются вычислительно более 
простыми по сравнению с другими критериями и эффективно могут применяться для 
отбора информативных признаков из массивов данных очень большого размера. 

Однако в результате использования фильтрующих критериев могут быть получены 
такие комбинации признаков, на основе которых не удастся построить модель, 
обеспечивающую требуемую точность. Это вызвано тем, что такие критерии 
непосредственно не связаны с математической моделью, которая будет использоваться 
для описания исследуемого объекта. 

К фильтрующим критериям, используемым для оценивания признаков, могут 
быть отнесены: множественный коэффициент корреляции, коэффициент корреляции 
Пирсона, дисперсионное отношение [9], коэффициент связи [10], информационный 
критерий, энтропия набора признаков [1], критерий, основанный на статистическом 
подходе [2]. 

Упомянутые критерии оценивания информативности комбинаций признаков не 
учитывают количество отобранных признаков. Поэтому в качестве фитнесс-функции 
предлагается использовать выражение, минимизирующее количество отобранных 
признаков и критерий оценивания информативности набора признаков: 


А 
1^ 


где /,— критерий оценивания совместного влияния набора признаков, соответствующего 
оцениваемой хромосоме Н/. 

Предложенный критерий позволит обеспечить эффективное оценивание хромосом 
с учетом информативности оцениваемой комбинации и количества признаков, 
содержащихся в ней. 
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Эволюционный поиск с кластеризацией признаков 


Существенным недостатком классических методов эволюционного поиска при 
отборе признаков является то, что они не учитывают близости расположения при- 
знаков в пространстве экземпляров, в результате чего новые комбинации признаков 
(хромосомы), формируемые путем применения эволюционных операторов ини- 
циализации, скрещивания и мутации, могут включать в себя признаки, содержащие 
одинаковую информацию об исследуемом объекте. Очевидно, что наборы признаков, 
соответствующие таким хромосомам, являются малоинформативными или избыточ- 
НЫМИ. 

В разработанном методе эволюционного поиска с кластеризацией признаков 
предлагается группировать схожие признаки с помощью методов кластеризации, 
которые позволяют разбить выборку на группы компактно расположенных 
признаков в пространстве экземпляров (кластеры, факторные группы) и выделить в 
каждом кластере по одному наиболее типичному признаку. 

При формировании новых хромосом в результате применения операторов 
инициализации, скрещивания и мутации предлагается рассчитывать вероятность 
включения признака в хромосому, которая зависит от расположения признака в 
кластере (расстояния от него до центра кластера), индивидуальной информативности 
признака, а также индивидуальной информативности центра его кластера. 

Эволюционный поиск с кластеризацией признаков для выделения наиболее 
значимого набора признаков из заданной выборки <Х, 7> предлагается выполнять 
как следующую последовательность шагов. 

Шаг 1. Сгруппировать признаки исходной выборки данных в кластеры. 

Шаг 1.1. Для каждого признака А’ рассчитать Эвклидово расстояние от него до 
всех остальных признаков в выборке. Эвклидово расстояние между признаками Хи. и 


т 

Хь вычисляется по формуле: а,(Х‚;Х,)= У(, -х„}, где т -— количество 
р=1 

экземпляров в выборке; х». и х»ь — значения а-го и Б-го признаков р-го экземпляра 

соответственно. 

Шаг 1.2. На основе рассчитанных ранее расстояний между экземплярами, 
используя методы кластер-анализа [2], [11], например, метод с добавлением кластеров, 
метод с удалением кластеров, комбинированный метод или метод нечетких С-средних, 
сформировать группы признаков, компактно расположенных в пространстве 
экземпляров. Выделить признаки, являющиеся центрами кластеров. 

Шаг 1.3. Для каждого признака Х; вычислить вероятность его включения в 
хромосому. 

Шаг 1.3.1. Рассчитать значение индивидуальной оценки информативности [ 
признака Х,, например, на основе коэффициента парной корреляции, коэффициента 
корреляции знаков, коэффициента корреляции Фехнера, дисперсионного отношения, 
коэффициента связи, информационного критерия, энтропии признака, критерия, 
основанного на вероятностном подходе, или критерия, основанного на статистическом 
подходе [7], [8]. 

Шаг 1.3.2. Определить вероятность Р; включения 1-го признака в хромосому: 
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где ЧЕХ; Х‹.;) — расстояние от признака Х; до центра его кластера; ДЕ тах, с 
максимальное расстояние в кластере, в котором расположен 1-ый признак; /‹ — 
информативность признака, являющегося центром кластера, в котором расположен 
признак Х'. 

Шаг 2. Установить счетчик итераций (времени): # = 0. 

Шаг 3. Инициализировать начальную популяцию из М хромосом, состоящих из 
[ генов. 

Шаг 3.1. Установить счетчик сформированных хромосом: / = 1. 

Шаг 3.2. Сформировать /-ую хромосому НУ. 

Шаг 3.2.1. Установить счетчик определенных генов: 1 = 1. 

Шаг 3.2.2. Сгенерировать случайное число: г = гап4[0;1], где гап4[а; Ь] — случайно 
сгенерированное число в интервале [а; 6]. 

Шаг 3.2.3. Если Р;> т, тогда 1-му гену /-ой хромосомы присвоить значение: 
й; = 1, в противном случае: йу, = 0. 

Шаг 3.2.4. Если /-ая хромосома сформирована полностью (1=Г), тогда 
выполнить переход к шагу 3.3. 

Шаг 3.2.5. Установить: 1=1+ 1. 

Шаг 3.2.6. Перейти к шагу 3.2.2. 

Шаг 3.3. Если сформированы все хромосомы (/ = №), тогда выполнить переход к 
выполнению шага 4. 

Шаг 3.4. Установить: ] = ] + 1. 

Шаг 3.5. Перейти к шагу 3.2. 

Шаг 4. Вычислить значение фитнесс-функции КН) хромосом текущей популяции 
по формуле: 


Й 


ини, 
ий а ий 

1+ Хм || + Хр, 
= = 


где .ХН,) — значение критерия, учитывающего размер и информативность набора 
признаков, соответствующего хромосоме НУ. 

Шаг 5. Выполнить проверку критериев останова (достижение максимально 
допустимого времени функционирования метода, числа итераций, значения фитнесс- 
функции). Если критерии окончания поиска удовлетворены, тогда выполнить 
переход к шагу 11. 

Шаг 6. Увеличить счетчик итераций: #=#+ 1. 

Шаг 7. Выбрать хромосомы для скрещивания и мутации путем использования 
одного из существующих методов отбора (пропорциональный отбор, отбор с исполь- 
зованием рулетки, турнирный отбор, пороговый отбор, отбор ранжированием). 

Шаг 8. Применить оператор равномерного скрещивания. При этом в маске 
скрещивания установить единичные значения для генов, которым соответствуют 
признаки с вероятностью включения в хромосому, выше средней, остальным генам 
присвоить нулевые значения. 

Шаг 9. Применить оператор точечной мутации. Вероятность мутации Рм; 1-го 
гена в мугирующей хромосоме предлагается рассчитывать по формуле: Рм; = а (1 - 
Р}), где а- коэффициент, определяющий степени мутации, 4 Е [0; 1]. 

Шаг 10. Сформировать новое поколение. Выполнить переход к шагу 4. 

Шаг 11. Останов. 


2 


Ин,)= 
| 
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Таким образом, в предложенном методе эволюционного поиска с кластеризацией 
признаков учитывается близость расположения признаков в пространстве экземпляров, 
что позволяет формировать новые решения из признаков, расположенных, как 
правило, в разных группах, увеличивая вероятность отыскания комбинации признаков, 
обладающей максимальной информативностью. 


Эксперименты и результаты 


Разработанный метод эволюционного поиска с кластеризацией признаков был 
программно реализован на языке пакета МаНаб. Для проверки эффективности 
применения предложенного метода и разработанного программного обеспечения 
решалась задача отбора информативных признаков для синтеза распознающих 
моделей автотранспортных средств [12]. 

Исходная выборка, предоставленная ООО «МПА Групп», содержала преобразо- 
ванные графические изображения различных транспортных средств, полученные с 
камер наблюдения. Выборка состояла из 1062 экземпляров, каждый из которых 
характеризовался 4096 признаками, представляющими собой нормированные значения 
интенсивности точек изображения, спроецированного на сенсорную матрицу 
точек размерностью 64х64, по которым определялись значения расчетных (искус- 
ственных) 26 признаков, обобщающих графическую информацию об объекте: х! — высота 
региона интереса; х› — ширина региона интереса; хз — коэффициент горизонтальной 
симметрии региона интереса; х4 — коэффициент вертикальной симметрии региона 
интереса; х5 — максимальное значение яркости области точек; х — минимальное 
значение яркости области точек; ху — усредненное значение яркости области точек; 
хз — центральный момент второго порядка (дисперсия) гистограммы яркости области 
точек; хо — ассиметрия гистограммы яркости области точек; хло — эксцесс гистограммы 
яркости области точек; хи — нормированный дескриптор относительной гладкости; х12 — 
однородность; х1з — взвешенная однородность; х14 — средняя энтропия; х15 — максималь- 
ный модуль градиента яркости точек; хв — максимальный модуль градиента со 
знаком; х17 — межпиксельная контрастность; х1з — бета-коэффициент; х1э — упрощенный 
бета-коэффициент; хо — нормированный центральный момент двумерной функции 
яркости области точек; х21 — х›6 — инвариантные моменты двумерной функции яркости 
области точек [' — 15. 

Выделение комбинации признаков выполнялось на основе методов эволюционного 
поиска. Начальные значения параметров эволюционных методов устанавливались 
следующими: оператор отбора — использованием рулетки, оператор скрещивания — 
равномерный, оператор мутации — точечный, количество особей в популяции 
№= 100, вероятность скрещивания рек = 0,8, вероятность мутации ри = 0,05, 
максимальное количество итераций Т = 100, количество элитных особей М. = 2. 

В качестве критерия оценивания информативности набора признаков использо- 
валась среднеквадратическая ошибка классификации по двухслойной нейросети 
прямого распространения, синтезированной на основе признаков оцениваемой хро- 
мосомы и содержащей 4 нейрона на первом слое и один нейрон на втором слое. Все 
нейроны имели сигмоидную функцию активации, а в качестве дискриминантных 
функций использовалась взвешенная сумма. 
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Результаты экспериментов приведены в табл. 1, где { — время, затраченное на 
эволюционный поиск комбинации информативных признаков, сек.; А: — количество 
вычисленных значений фитнесс-функции; А — количество отобранных признаков; = — 
достигнутая ошибка прогнозирования. 


Таблица 1 — Результаты отбора признаков с помощью различных эволюционных 
методов 


Критерий 
Метод отбора признаков 
р й ГР ПОР Е 
Классический эволюционный поиск 183,9 | 122 10 0,0075 
Эволюционный поиск с кластеризацией признаков | 113,8 | 81 9 0,0062 
Из табл. 1 видно, что при использовании предложенного метода эволюцион- 


ного поиска с кластеризацией признаков для выделения информативной комбинации 
признаков затрачивается меньше времени и требуется меньше обращений к целевой 
функции по сравнению с классическим эволюционным поиском. При этом оптимальный 
набор содержит меньшее количество признаков и позволяет синтезировать модель 
(табл. 2), обеспечивающую лучшую точность классификации. 


Таблица 2 — Матрица весовых коэффициентов нейростевой модели 


Номер Номер Номер входа нейрона 
слоя |нейрона в слое 0 1 2 3 4 5 6 7 8 9 

1 —14,57 132,96 10,71 |-8,418|7,729 10,924 |-11,37-3,822|-7,538|5,823 

| 2 —15,633 |28,02 |6,739 |-26,81|-31,57|-29,6238,773|15,638|31,372 2,616 
_ 6,5428 |-9,43 [18,78 |-15,5114,193 1|16,625|16,74 |-5,725|-23,85|3,824 
4 —2,637 |-4,36 |-26,5319,725 |--6,714|-0,842 5,882 18,62129,629|-7,518 

2 1 82,747 |-78,53|-54,72|-49,42 |-43,56 

Заключение 


В работе решена задача отбора информативных признаков для синтеза 
эффективных моделей исследуемых объектов, процессов и систем на основе 
эволюционного подхода. 

Научная новизна работы заключается в том, что разработан метод эволюционного 
поиска с кластеризацией признаков, в котором учитывается близость расположения 
признаков в пространстве экземпляров. Это позволяет формировать новые решения 
из признаков, расположенных, как правило, в разных группах, увеличивая вероятность 
отыскания комбинации признаков, обладающей наибольшей значимостью. 

Практическая ценность результатов работы состоит в том, что разработано 
программное обеспечение, реализующее предложенный метод отбора признаков, а 
также решена задача выделения информативного набора признаков для синтеза 
моделей классификации автотранспортных средств. 

Исследование выполнено в рамках НИР «Научно-методические основы и мате- 
матическое обеспечение для автоматизации и моделирования процессов управления и 
поддержки принятия решений на основе процедур распознавания и эволюционной опти- 
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мизации в нейросетевом и нечеткологическом базисах» (№ гос. регистрации 01060008621) 
и «Разработка методов и программных средств на основе обучения, распознавания, опти- 
мизации и адаптации для принятия решений в автоматизированных системах управления 
транспортными средствами» (№ гос. регистрации 0107090006781). 
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С.О. Суббопит, А.О. Олйник 

Видлення набору 1нформативних ознак на основ! еволющИного пошуку з кластеризащею 
Вирштуеться задача пошуку найбльш 1нформативно! комбйнацй ознак за допомогою методв еволющйно! 
оптимпзаци. Запропоновано метод еволющйного пошуку з кластеризащею ознак. Проведено експерименти з 
видмення 1нформативного набору ознак для синтезу моделей класиф\каци автотранспортних засоб\в. 


5.4. биьБойп, А.А. Феушй 

Ееатиге З@есйоп Вазед оп е ЕуоиНопагу Зеагсв уу Сш$ет7айоп 

ТБе ргоет оф Фе п105 шгтайнуе Ее аге соптайоп зеагсЬ Базе оп фе еуо[аНопагу орнпиханоп 
те@о@$ 15 зоуе4. Тре тефо@ оЁ еуош@опагу зеагсь \И сшзептаноп 15 оНегеа. Ехрегилеп оп 
аПосаНоп оГап шЮгтануе Ееа®ге $е{ ог зупе515 оРуешсе с1азз1Исайоп гло4е[5 аге [еа4. 
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